#coding:utf8

# 需求3：
# 从SogouQ.txt导入数据后，对搜索时间段（小时即可）活跃度进行查询
import jieba
from defs import cut_key_word, cut_usr_key_word
from pyspark import SparkContext,SparkConf
# 导入operator包完成基本的计算
from operator import add

if __name__ == '__main__':
    conf = SparkConf().setAppName('test_persit')
    sc = SparkContext(conf=conf)

    rdd = sc.textFile('hdfs://node1:8020/input/SogouQ.txt')
    # 将小时数据取出
    period_content = contentRdd = rdd.map(lambda x: x.split("\t")).map(lambda x: (x[0].split(':')[0],1))
    result_rdd = period_content.reduceByKey(add).sortBy(lambda x:x[1],ascending=False)
    print('需求3的结果是：',result_rdd.take(5))